当前位置:首页 > 文章导读 > 自然科学版

融合相似性判断的网络新词发现算法
张爽,陈莉,李铮
西北大学 信息科学与技术学院,陕西 西安710127
 全文: PDF  
摘要:

新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏。针对传统新词发现方法未考虑单字新词的识别,且忽略了上下文句法结构与语义信息对新词识别结果的影响,提出一种统计量计算结合相似性判断的网络新词发现算法。首先,基于字的粒度,依次计算单字词频、最大增强互信息和加权左右邻接熵,从左向右逐字扩展多字词,获得具有高成词概率的候选新词集合;再利用基于句法与语义的改进相似性计算模型,得到语句相似度,过滤无效新词。对比实验结果表明,该算法能够有效识别新词,相较于传统新词发现方法具有更高的准确率、召回率和F值。

关键词: 新词发现;句法分析;相似性计算;卷积神经网络;增强互信息
发表年限: 2022年
发表期号: 第2期